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究 表 明 : BIC 方法 对 多 级 计 分 认 知 诊断 模型 的 Q 矩阵 修正 


准 率 ， 其 对 Q 和 矩阵 的 恢复 率 也 高 于 stepwise 方法 ，BIC 方法 修正 后 的 Q YH 


A: 在 复杂 模型 中 ， 相 对 拟 合 指标 BIC EG AIC 和 -2LL 表现 更 好 ， 在 实践 中 ， 使 用 者 可 以 选 


择 BIC 法 进行 测验 Q ERE; QH 
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行 选拔 ， 而 对 分 数 背后 的 心理 加 工 过 程 和 认 知 技能 无 法 提供 详 


了 评估 和 排序 ,来 评价 学 4 


展 ， 人 们 和 希望 测验 能 够 提供 更 详细 


的 诊断 信息 ， 从 而 进行 针对 性 的 补 录 


断 作 为 认 知 心理 学 和 心理 测量 学 的 结合 , 可 以 实现 对 人 的 内 部 心理 


究 为 多 级 计 分 认 知 诊断 Q 矩阵 修正 提供 了 重要 的 方 


的 学 习 效果 或 者 进 
。 随 着 测评 技术 的 发 
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加 工 过 程 和 认 知 技能 的 诊 


断 ， 从 而 为 针对 性 地 补救 和 教师 因材施教 提供 依据 (Chang, 2015; Chen, 2017; 张 华 华 ， 汪 
MM, 2016)。 为 此 , 研究 者 们 开发 了 许多 具有 认 知 诊断 功能 的 计量 模型 (Cognitive Diagnosis 


Models, CDMs)， 常 见 的 有 DINA (Haertel, 1984;) ~ NIDA (Maris, 1999;) ~ DINO (Templin 
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& Henson, 2006) ~ R-RUM (Hartz & Roussos, 2008) ~ A-CDM 和 G-DINA (de la Torre, 2011) 
等 ， 这 些 模型 均 适 用 于 0-1 计 分 的 测验 情境 。 为 了 适应 多 级 评分 的 测验 情景 ， 研 究 者 们 也 开 


发 出 了 能 用 于 多 级 计 分 的 认 知 诊断 模型 ， 如 多 级 计 分 的 GDM (von Davier, 2008), P- DINA 


模型 GRA, ESTA, Woe, TTR, 2010) 、 多 级 的 LCDM (Hansen, 2013) 、seq-GDINA 


(Ma & de la Torre, 2016) 等 。 与 其 他 的 多 级 计 分 模型 不 同 ，seq-GDINA 模型 可 以 从 项 目 水 
平和 得 分 类 别 水 平分 别 定义 Q 矩阵 ，Ma 和 de la Torre (2016) 将 基于 项 目 水 平 的 Q 阵 定 义 


为 非 约 束 化 的 Q MECUnrestricted Q), 而 基于 类 别 水 平 的 Q 阵 定 义 为 约束 化 的 Q 阵 (Restricted 


Q)。 如 对 于 算式 V45/3 一 6 的 求解 分 为 三 个 步骤: 即 step 1 计算 45/3=15, step 2 计算 15-6=9, 


step 3 计算 V9 = 3 。 三 个 步 又 分 别 考 察 了 三 个 属性 Al( 除 法 )、A2( 减 法 )、A3( 根 号 运算 )。 项 


目 水 平 的 Q 矩阵 将 该 题 测量 Q PERE MAG, = [rii], 即 该 题 测量 了 三 个 属性 ; 而 基于 得 分 类 


别 的 Q 矩阵 则 需要 对 该 题 的 每 一 步骤 《或 每 一 个 得 分 类 别 ) 进行 Q 矩阵 标定 ， 将 该 题 基于 


100 
类 别 水 平 的 Q 和 矩阵 定义 为 9; =|010|， 即 step 1 测量 了 Al，step 2 测量 了 A2，step 3 测量 
001 


= 了 A3。 相 比较 而 言 ， 基 于 得 分 类 别 的 Q 矩阵 可 以 更 加 深入 地 探测 出 学 生 的 解 题 过 程 ， 从 而 
X Q MERERIIK F Q 4E 
= 阵 的 详细 介绍 可 以 参考 Ma 和 de la Torre (2016) 的 文献 。 总 体 来 讲 ， 基 于 得 分 类 别 的 Q FARE 
c 能 更 准确 地 反应 出 被 试 每 个 步 又 需要 的 属性 。 而 在 实际 中 得 分 类 别 的 Q 矩阵 的 标定 比 项 目 
IKF Q 矩阵 的 标定 更 为 复杂 ， 为 每 个 类 别 标定 Q 矩阵 也 增加 了 专家 的 工作 负担 。 在 Q 矩阵 
的 修正 上 ， 对 得 分 类 别 的 Q 矩阵 修正 也 比 项 目 水 平 Q 矩阵 修正 的 难度 更 大 ， 因 为 对 得 分 类 
别 Q 矩阵 的 修正 需要 考察 所 有 题目 每 个 类 别 的 Q 矩阵 ， 而 项 目 水 平 的 Q 矩阵 则 只 需 考 虑 整 
个 项 目 整 体 测 量 了 哪些 属性 ， 因 此 相对 容易 。 

在 对 Q 矩阵 的 修正 上 ， 国 内 外 研究 者 提出 许多 种 方法 。 其 中 一 部 分 方法 只 适用 于 简化 
的 认 知 诊断 模型 (如 DINA 和 DINO 模型 ) ， 如 : ys GRA, BHA, 戴 海 崎 ，2012) 、 
海 明 距 离 的 方法 〈 汪 大 勋 ， 高 旭 亮 ， 韩 雨 婷 , 涂 冬 波 ，2018) . ICC-IR 法 〈 汪 大 勋 ， 高 但 亮 ， 


meta, W, 2018) . SY (dela Torre, 2008) ~ RSS¥ (Chiu, 2013) 。 除 此 之 外 ， 而 


能 提高 被 试 分 类 的 准确 性 (Ma & de la Torre, 2016) 。 关 于 项 目 水 平 


究 者 还 提出 一 些 适用 于 饱和 认 知 诊断 模型 的 Q 矩阵 修正 方法 ， 如 GDI 法 (de la Torre & Chiu, 
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2016)、 基 于 似 然 的 方法 (Xu & Shang, 2018) 和 基于 残 差 的 方法 (Chen, 2017)。 相 比较 而 
Ao 后 三 种 方法 的 适用 范围 更 广 , 既 适 用 于 饱和 的 认 知 诊断 模型 也 适用 于 简化 的 认 知 诊断 模 
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型 。 而 三 种 可 以 适用 于 饱和 模型 的 方法 中 ，GDI 方法 计算 相对 复杂 ， 且 需要 设 定 一 个 截断 值 
(PVAF=0.95) 。 并 且 通 过 预 研究 发 现 ， 该 方法 受 样本 量 影响 较 大 ， 在 小 样本 量 (N=500) 
中 该 方法 表现 不 理想 。 而 基于 残 差 的 方法 虽然 可 以 在 测验 层面 考察 测验 属性 是 否 多 余 或 缺 
失 ， 但 该 方法 对 题目 层面 的 属性 多 余 不 够 敏感 (Chen, 2017)。 而 Xu 和 Shang (2018) 的 方法 
采用 TLP (truncated L1 penalty fonctiom) 的 正则 化 算法 , 由 估计 的 项 目 参 数 稀疏 矩阵 来 推断 题 
目的 gq 向 量 ， 并 结合 信息 指标 (BIC) 来 进行 Q 矩阵 估计 或 修正 ， 他 们 的 研究 不 仅 进行 了 理 


论证 明 ，Monte Carlo 实验 也 表明 其 方法 具有 较 好 的 效果 。 此 外 ，Chen，de la Torre 和 Zhang 


(2013) 将 -2LL、AIC 和 BIC 指标 用 于 对 不 同 Q 矩阵 的 鉴别 。 研 究 发 现在 DNA 模型 中 ， 
-2LL 指标 表现 较 好 ; 而 在 饱和 模型 中 ，-2LL 倾向 于 选择 在 原 有 Q 矩阵 基础 上 增加 属性 的 Q 
和 矩阵， 而 BIC 指标 的 表现 是 最 出 色 的 。 以 上 方法 均 是 在 0-1 模型 中 的 Q 和 珑 阵 修 正方 法 ， 而 
对 于 多 级 计 分 模型 中 的 Q 矩阵 修正 的 研究 , Ma 和 de la Torre (2019) 提 出 了 GDI 和 wald 检验 
相 结 合 的 stepwise 方法 进行 seq-GDINA 模型 的 Q 矩阵 修正 。 该 方法 先 选 择 单 属 性 9 向 量 
具有 最 大 GDI 值 的 q 向 量 作为 基础 ， 再 用 wald 检验 是 否 显著 来 决定 是 否 增加 或 删除 属性 ， 
并 通过 计算 wald 检验 以 后 q 向 量 的 GDI 值 来 决定 是 否 终止 。 该 方法 在 确定 每 个 类 别 的 9 向 
量 时 ， 需 要 进行 多 次 的 wald 检验 ， 并 计算 标准 误 ， 计 算 相 对 复杂 。 此 外 ， 该 方法 是 从 属性 
的 角度 来 考察 属性 是 否 缺 失 或 元 余 ， 而 对 于 Q 矩阵 修正 后 模型 的 整体 拟 合 并 没有 考虑 。 
因此 本 研究 尝试 使 用 模型 的 相对 拟 合 统计 量 对 多 级 计 分 认 知 诊断 模型 Q 矩阵 进行 修正 ， 
并 聚焦 更 具 诊 断 价值 的 基于 项 目 类 别 水 平 的 Q 和 矩阵 修正 方法 。 具 体 来 讲 ， 本 研究 将 模型 拟 


合 统 计量 中 的 -2LL、AIC(Akaike's Information Criterion)! BIC (Bayesian Information Criteria ) 
指标 用 于 多 级 计 分 认 知 诊断 模型 的 Q 矩阵 修正 。 本 文采 用 的 方法 与 Xu 和 Shang (2018) 方 法 
相似 之 处 ， 都 是 需要 对 模型 参数 进行 估计 ， 并 使 用 信息 指标 来 进行 Q 矩阵 修正 。 并 且 在 
修正 Q FEMI AB ETE AR A Q 矩阵 保持 不 变 的 情况 下 ， 逐 题 〈 或 类 别 ) 对 q 向 量 进行 确 


定 。 而 两 种 方法 的 区 别 在 于 ，Xu 和 Shang (2018) 的 方法 采用 TLP (truncated L1 penalty 
functiom) 的 正则 化 算法 ， 由 估计 的 项 目 参 数 稀 朴 矩阵 来 推断 题目 的 g 向 量 ， 并 结合 信息 指标 
(BIC) 来 进行 Q 矩阵 修正 ， 因 此 并 不 需要 对 所 有 可 能 的 q 向 量 进行 估计 。 而 本 文 则 在 所 有 
可 能 的 4 向 量 中 通过 拟 合 统计 量 挑选 出 最 优 的 9 向 量 。 此 外 Xu 和 Shang (2018) 的 方法 是 
用 于 二 级 计 分 的 Q 矩阵 估计 或 修正 ， 而 本 文 则 是 对 多 级 计 分 Q 矩阵 修正 进行 研究 。 通 过 
Monte Carlo 模拟 研究 和 实证 数据 分 析 来 验证 本 文 的 方法 并 与 Ma 和 de la Torre (2019) 提 出 的 
stepwise 方法 进行 比较 , 从 而 为 实际 工作 者 在 多 级 计 分 认 知 诊断 中 Q 矩阵 的 修正 与 标定 提供 
方法 支持 。 


2 seq-GDINA 模型 介 


前 已 述 及 ， 在 众多 多 级 计 分 CDMs F, seq-GDINA 模型 能 从 得 分 类 别 标定 Q 矩阵， 从 


而 更 深入 细致 地 探查 被 试 的 解 题 过程 。 此 外 , 该 模型 使 用 G-DINA 模型 作为 每 个 类 别 上 的 链 


接 函 数 ， 在 不 同 的 假设 条 件 下 ，seq-GDINA 模型 可 以 转化 为 不 同 的 多 级 计 分 模型 〈 如 


seq-DINA 和 seq-RRUMO ， 因 此 该 模型 更 加 灵活 。 因 此 本 研究 采用 Ma 和 de la Torre (2016) 


开发 的 seq-GDINA 模型 进行 研究 。 对 该 模型 的 介绍 如 下 : 


对 于 属性 掌握 模式 为 ac 的 被 试 ， 其 在 项 目 j 上 有 h KIHI EMER 
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l ifh=0 T 
= 1 
0, ifh=H,+l 


EP H, AA KRAM, WA BONE j EA h DRERI: 


P(X, = hla) = a NTS (xtc (2) 
x=0 
oi NUP ah Se NIN, SEED j 上 得 各 种 分 数 的 概率 之 和 为 1 。 
2 H; 
P(X, - hio, )-1 ve (3) 
h=0 


被 试 在 题目 上 每 个 类 别 的 得 分 概率 受到 题目 /每 个 类 别 测量 属性 的 影响 。 如 在 一 个 属 


p 


VET, Ki, 为 项 目 j 类 别 h 所 测量 的 属 


jh 


ki 


= 性 个 数 为 X HO TP, EK? WEH 7 测量 的 


HME. L- 24 为 所 有 简化 后 的 掌握 模式 ，cx 表示 第 7 种 掌握 模式 。 对 于 掌握 模式 7, ， 


其 在 项 目 了 上 大 类 别 的 概率 函数 表示 为 : 


Kin Ka- 


S (nla;,)=¢ YE > > P sue ArAw FFP ary, x [ia (4) 


k'=k+1 k= 


a 中 P ino 是 截 距 参 数 ， P inn 是 AE | 属性 An 的 主 效应 ， Pinta’ 是 AE Jm B R VE Aik 和 An 的 交互 效应 ， 


D mo e 是 所 有 属性 的 交互 效应 。 与 GDINA 模型 相似 de la Torre, 2011) ， 在 不 同 约束 条 


ml 
E 


TF F seq-GDINA 模型 可 以 转换 为 seq-DINA. seq-RRUM 等 模型 。 


3 多 级 计 分 认 知 诊断 Q 矩阵 修正 
在 认 知 诊断 中 定义 题目 j 的 g 向 量 时 , 在 其 他 题目 Q 矩阵 不 变 的 情况 下 , 在 所 有 可 能 的 
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4 向 量 中 能 使 模型 相对 拟 合 更 好 的 g 向 量 应 该 为 题目 /的 9 向 量 。 而 认 知 诊断 中 常用 的 模型 
相对 拟 合 指标 包括 -2LL、AIC 和 BIC。 在 约束 模型 (如 DINA) 中， 题目 g 向 量 标定 错误 会 
导致 题目 猜测 参数 和 失误 参数 增加 ， 从 而 降低 模型 的 似 然 值 ， 因 此 在 约束 模型 中 -2LL 指标 
可 以 挑选 出 恰当 的 g 向 量 。 而 在 复杂 模型 中 ， 已 有 研究 (Chen etal, 2013; Chen, 2017) 
K, FERA Q 矩阵 基础 上 增加 属性 Coverspecified) 会 产生 更 大 的 模型 似 然 〈 由 于 模型 
参数 个 数 增多 ) 。 所 以 在 复杂 模型 中 ，-2LL 指标 通常 会 挑选 全 为 1 的 9 向 量 (g =[7777]) 
作为 题目 j 的 g 向 量 。 因 此 在 复杂 模型 中 对 题目 7 的 q 向 量 进行 标定 时 需要 对 模型 的 参数 个 


数 进行 惩罚 ， 而 AIC 和 BIC 指标 则 是 在 -2LL 的 基础 上 对 模型 的 参数 个 数 进行 了 惩罚 。 


3.1 -2LL 方法 


在 0-1 计 分 模型 Q 矩阵 修正 中 , 如果 一 个 测验 包含 了 J 个 题目 ,K 个 属性 ,用 Q, (reduced 


Q-matrix) 来 表示 所 有 可 能 的 属性 模式 的 集合 , 当 属 性 之 间 没 有 关系 时 O, 里 包含 了 2* -1 种 


属性 模式 。 使 用 -2LL 方法 来 进行 Q 和 矩阵 标定 时 ， 是 将 最 小 -2LL 所 对 应 的 属性 模式 作为 题目 


7 的 属性 模式 。 即 分 别 将 O, 里 的 属性 模式 作为 题目 j 的 属性 模式 (其 余 J-1 个 题目 的 Q 矩阵 


不 变 ) ， 与 其 余 J-1 个 题目 一 起 进行 参数 估计 ， 并 计算 -2LL。 将 最 小 -2LL 所 对 应 的 属性 模 
= 式 作 为 题目 7 的 属性 模式 ， 公 式 表示 为 : 


^ 


g,=arg min -2In(Z(X|p,07) iu 
qi ec. 


Herp LOX 


oneal ll, fx, 


i=l j=l 


a a, pe) , fx, 


a B, esa 


( 
= 


= 试 i 的 掌握 模式 为 时 ， 题 目 7 的 似 然 ， 和 CQ) 是 掌握 模式 为 Q, 的 后 验 概率 ，Q, 是 所 有 可 


能 掌握 模式 的 集合 。 OF 是 当 题 目 j 的 属性 模式 为 第 1 种 属性 模式 时 ， 整 个 测验 的 Q JERE. 


p 


与 0-1 计 分 情况 下 不 同 , 在 多 级 计 分 模型 中 ， 需 要 依次 对 每 个 题目 的 每 个 类 别 q 向 量 进 
行 验证 与 修正 。 同 样 可 以 将 最 小 -2LL 所 对 应 的 属性 模式 作为 题目 j 第 h 类 别 的 属性 模式 。 


分 别 将 Q, 里 的 属性 模式 作为 题目 j 第 hh 类别 的 属性 模式 (题目 j 的 其 余 类 别 和 其 他 J-1 个 题 


目的 所 有 类 别 Q 矩阵 均 保持 不 变 )， 与 其 余 题 目 一 起 进行 参数 估计 ， 并 计算 -2LL。 最 小 -2LL 
所 对 应 的 属性 模式 作为 题目 j 第 有 类 别 的 属性 模式 ， 表 示 为 : 


gn=arg min ~2In(L(X|p,Q%) (6) 
qe r 


EE On 是 当 题 目 j 28 n 类 别 的 属性 模式 为 第 1 种 属性 模式 4; 时 ， 整 个 测验 的 Q 矩阵 。 
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使 用 -2LL 方法 来 修正 Q 矩阵 时 ， 需 要 对 所 有 题目 的 所 有 类 别 依次 循环 验证 
矩阵 修正 。 


3.2 AIC 方法 


由 此 可 进行 Q 


AIC (Akaike's Information Criterion) 指标 是 由 Akaike (1974) 开发 的 信息 指标 ， 是 心 


理 测量 领域 常用 的 测验 相对 拟 合 指标 ， 可 用 于 比较 模型 的 相对 拟 合 程度 。 与 -2LL 方法 相似 ， 


在 使 用 AIC 指标 对 题目 7 38 h RHA q 向 量 进行 标定 时 ， 将 Q, 里 的 所 有 属性 模式 依次 作为 


题目 j 第 h 类别 的 属性 模式 ， 与 其 余 题 目 一 起 进行 参数 估计 ， 并 计算 模型 的 AIC 指标 ， 将 
AIC 指标 最 小 的 属性 模式 作为 题目 j 第 h 类 别 的 属性 模式 。AIC 指标 的 计算 公式 如 下 : 


AIC=-2LL+2d (T) 


其 中 工 为 模型 的 边际 似 然 ， 其 计算 方法 与 -2LL 方法 相同 ，d 为 需要 估计 参数 的 个 数 。 
相对 于 -2LL 方法 ，AIC 指标 考虑 了 参数 个 数 的 影响 ， 参 数 个 数 多 的 属性 模式 将 会 受到 惩罚 。 


3.3 BIC 方法 


BIC (Bayesian Information Criteria) 指标 是 由 Schwarz (1978) 开发 的 信息 指标 ， 通 常 
与 AIC 指标 一 起 用 于 模型 比较 。 与 AIC 指标 相 比 ，BIC 指标 还 考虑 了 样本 量 对 模型 拟 合 度 
影响。BIC 指标 的 计算 公式 如 下 : 


BIC = -2LL+ dx In(N) (8) 


其 中 N 为 被 试 样本 量 ，L 和 4 分 别 为 模型 的 边际 似 然 和 参数 个 数 。 使 用 BIC 指标 来 标 
定 题目 7 第 h 类 别 的 属性 模式 的 方法 与 AIC 指标 相同 ， 最 后 选择 具有 最 小 BIC 指标 的 属性 
模式 作为 题目 j 第 类别 的 属性 模式 。 


3.4 穷尽 算法 (exhaustive search algorithm) 和 顺序 算法 (sequential search algorithm) 


tg aQ- pig nA q 向量, 居中 为 g 中 的 属性 个 数 , q I < aUe GO ee q” 


(de la Torre, 2011) 。 用 S ,表示 q 向 量 的 集合 。 


穷尽 算法 是 分 别 将 你 中 的 属 性 模式 作为 题目 j 第 有 h 类 别 的 属性 模式 ， 计 算出 相对 拟 合 


指标 后 挑选 出 最 优 的 属性 模式 ， 即 集合 5, = gg e O,} 中 拟 合 最 好 的 q 向 量 作为 题目 / 


第 有 hh 类别 的 gq 向 量 。 这样 的 方法 计算 比较 耗 时 ， 如 当 K-5 时 ， 对 每 个 类 别 的 q 向 量 的 确定 ， 


穷尽 算法 需要 估计 2 -1= 31 次 。 


顺序 算法 包括 : (1) 增加 属性 算法 (forward search algorithm) 是 先 从 单 属 性 q 向 量 中 
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挑选 出 拟 合 最 好 的 9 向量 ， 记 为 go ， 再 比较 集合 


S, - M" |g" e Q, a <q, KO = K+ 1p Hb q 向 量 与 go) 的 拟 合 。 如 果 集合 中 拟 合 


最 好 的 g 向 量 的 拟 合 指标 优 于 go) ， 则 用 该 4 向 量 更 新 go) 。 重 复 该 步 又 直到 S, 中 没有 4 


向 量 拟 合 优 于 go) 或 go) 包 含 了 所 有 属性 ( 即 qo) = 7) 。(2) 删除 属性 算法 (backward search 


algorithm) 是 从 全 为 1 的 9 向 量 出 发 ， 即 go =71。 然 后 比较 集合 


a 


S, = {alg e Q,, 4 « 40), KY = KO) 1p eb tts q 向 量 与 9 中 的 拟 合 ,如 果 集 合 中 拟 合 最 


好 的 gq 向 量 的 拟 合 指标 优 于 go) ， 则 用 该 y 向 量 更 新 go) 。 


limi 


重复 该 步骤 直到 8 中 没有 9 向 


量 拟 合 优 于 go) 或 go) 只 测量 了 一 个 属性 〈 即 玉 o=1) 。 G) 先 增加 属性 后 删除 属性 算 


法 Cforward-then-backward search algorithm) 是 将 原始 Q 矩阵 中 专家 给 定 的 q 向 量 作 为 gq o), 


在 此 基础 上 先进 行 增加 属性 算法 ， 然 后 进行 删除 属性 算法 。〈4) 先 删 除 属性 后 增加 属性 算 


法 (backward-then-forward search algorithm) 也 将 原始 Q JERE PRAAEN q 向 量 作为 q? ), 


在 此 基础 上 先进 行 删除 属性 算法 ， 然 后 进行 增加 属性 算法 。 
顺序 算法 中 增加 属性 算法 (forward search algorithm) 和 删除 属性 算法 (backward search 

algorithm) 并 没有 利用 到 专家 给 定 的 Q 矩阵 信息 ， 而 后 两 种 算法 则 是 在 专家 给 定 q 向 量 的 

基础 上 进行 的 搜索 算法 。 此外, 后 两 种 顺序 算法 在 每 个 类 别 上 需要 估计 的 次 数 会 根据 该 类 别 

q 向 量 的 错误 程度 变化 ， 但 相对 于 穷尽 算法 ， 顺 序 算法 可 以 大 大 减少 计算 次 数 。 

3.5 Q FEREISIE DR 


将 需要 修正 的 原始 Q EREL, Xx Q 和 矩阵 通常 是 


专家 界定 。 假 设 一 个 测验 


包含 7 个 题目 ， 每 个 题目 包含 H, 个 类 别 〈 每 个 题目 类 别 数 可 能 不 同 ) ， 则 该 测验 共有 


J 
H=) A, 个 类 别 ， 将 所 有 类 别 的 集合 定义 为 $0 —(.., Hj. 具体 步 又 如 下 : 


j=l 


步骤 1: MAME SO 中 抽取 出 第 一 个 题目 j， 对 其 第 1 个 类 别 的 q 向 量 进行 验证 。 


其 他 .7 一 1 个 题目 以 及 题目 其 他 类 别 的 Q 和 矩阵 保持 不 变 。 
步骤 2: 使 用 顺序 算法 根据 -2LL 指标 《如果 修正 方法 为 AIC 或 BIC 方法 ， 则 分 别 计算 


AIC 和 BIC 指标 ) 挑选 出 题目 7 第 1 个 类 别 最 优 -2LL 指标 (或 AIC、BIC 指标 ) 所 对 应 的 
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ar 
a 


步骤 3: 重复 步骤 1- 步 又 2， 确 定 第 7 题 其 他 类 别 的 最 优 4 向 量 ， 方 法 与 题目 7 第 1 个 
类 别 的 方法 相同 。 

步骤 4: 根据 步骤 1- 步 又 3， 则 完成 对 题目 所 有 类 别 最 优 4 向 量 的 确定 。 重 复 步 又 1- 
步骤 3， 对 剩余 题目 所 有 类 别 的 最 优 q 向 量 进行 确定 。 直 到 确定 完 所 有 类 别 的 最 优 4 向 量 。 

BRS: 在 所 有 类 别 中 ， 挑 选修 改 后 相对 拟 合 指标 〈-2LL、AIC、BIC) 达到 最 优 的 4 


向 量 进行 修改 ， 并 将 该 类 别 从 SY 中 移 除 。 删 除 类 别 后 的 集合 表示 为 S$” ， 修 改 后 的 QE 


阵 表示 为 0。 


步骤 6: 验证 OW 与 O RAMA. MRO? +00, npa o Eds QU, so 替换 


为 80 ， 重 复 步 又 1- 步 又 5。 当 SS = 名 或 OW = OW， 则 算法 停止 。 


为 了 探讨 不 同方 法 在 多 级 计 分 认 知 诊断 中 Q 矩阵 修正 的 效果 。 模 拟 研 究 考 查 了 不 同方 
法 在 不 同样 本 量 、Q 矩阵 错误 类 型 以 及 不 同 的 多 级 计 分 认 知 诊断 模型 下 的 效果 ， 并 将 其 与 
= Ma 和 de la Torre (2019) 的 stepwise 方法 进行 比较 。 有 具体 为 : 研究 一 : 不 同方 法 在 简化 多 


地 


级 计 分 认 知 诊断 模型 (seq-DINA 和 seq-RRUM) 的 效果 及 其 比较 研究 ， 研究 二 : 不 同方 法 
N 在 饱和 多 级 计 分 认 知 诊断 模型 (seq-GDINA》 的 效果 及 其 比较 研究 。 
= 4 研究 一 : 不 同方 法 在 seq-DINA 和 seq-RRUM 模型 中 的 比较 研究 
© 4.1 研究 一 实验 设计 
4.1.1 QÀEIE 

本 研究 采用 的 Q 矩阵 (Ma & dela Torre, 20160 如 下 ， 共 包含 了 21 个 题目 ，5 个 属性 ， 


Q HER JL 1. 


表 1 测验 Q 和 矩阵 


题 Ky Al A2 A3 A4 A5 题 类 别 Al A2 A3 A4 AS 
1 1 1 0 0 0 0 1 1 1 0 0 0 
1 2 0 1 0 0 0 1 2 0 0 0 0 1 
2 1 0 0 1 0 0 2 1 1 1 0 0 
2 2 0 0 0 1 0 2 2 0 0 0 1 1 
3 1 0 0 0 0 1 3 1 1 0 0 0 
3 2 1 0 0 0 0 3 2 0 0 1 1 1 
4 1 0 0 0 0 1 4 1 1 0 1 0 0 
4 2 0 0 0 1 0 4 2 0 0 0 1 0 
5 1 0 0 1 0 0 14 3 0 0 0 0 1 


5 2 0 1 0 0 0 5 jl 0 0 0 0 1 
6 1 1 0 0 0 0 15 2 0 0 1 1 0 
6 2 0 1 1 0 0 5 3 0 1 0 0 0 
7 1 0 0 1 0 0 16 1 1 0 0 0 0 
7 2 0 0 0 1 1 6 2 0 1 0 0 0 
8 1 0 0 0 0 1 6 3 0 0 1 1 0 
8 2 1 1 0 0 0 17 1 1 0 0 0 0 
9 1 0 0 0 1 1 8 1 0 1 0 0 0 
9 2 0 0 1 0 0 9 1 0 0 1 0 0 
10 1 0 1 0 1 0 20 1 0 0 0 1 0 
10 2 1 0 0 0 0 21 1 0 0 0 0 1 


4.1.2 认 知 诊断 模型 、 被 试 参数 和 题目 参数 模拟 


研究 一 使 用 的 模型 为 seq-DINA 和 seq-RRUM 模型 。 被 试 掌 握 模 式 由 多 元 正 态 分 布 


(multidimensional normal distribution ) MVN(0,) 产生 , 参考 已 有 研究 (chen, 2017; Liu, Xin, 


Andersson, & Tian, 2019) 属性 间 相 关 设 置 为 0.5。 样 本 量 分 别 为 500、1000 和 2000 人 ， 代 


表 小 样本 、 中 等 样本 和 大 样本 。 题 目 参 数 模 拟 方法 为 掌握 项 目 j 第 hh 类别 全 部 属性 的 被 试 得 


分 的 概率 从 [75-1] 中 随机 产生 , 即 S,(hla =1)= UT0-75,1] . 未 掌握 项 目 j 第 类 别 任何 属 


性 的 被 试 得 分 的 概率 从 [0~.25] 中 随机 产生 , BIS, (alas, =0)=U[0,0.25] .对 于 seq-RRUM 


模型 ,其 他 掌握 模式 的 被 试 得 分 的 概率 从 |S;(hle =0) (nag, = 1) mu Ui 


单调 性 约束 , 即 掌握 属性 个 数 多 的 被 试 在 题目 i 上 得 分 的 概率 大 于 掌握 属性 个 数 少 的 被 试 ， 


Ro, 2a. She)» S, (rla). 


M 


4. 1. 3 QdBEESEHRHRHU, 

参考 已 有 研究 (Chen et al, 2013; Liu, Tian, & Xin, 2016; Chen, 2017; Liu et al., 2019), 
分 别 考察 Q 矩阵 中 有 属性 元 余 、 属 性 缺失 、 属 性 既 缺 失 又 元 余 等 情况 ， 分 别 设 置 了 以 下 6 
种 Q 和 矩阵 错误 类 型 。Q1 为 随机 挑选 5 个 测量 了 一 个 属性 的 类 别 ， 随 机 将 每 个 类 别 中 一 个 为 
“0” 的 属性 改 为 “1”"。Q2 为 随机 挑选 5 个 测量 了 2 个 属性 以 上 的 类 别 ， 随 机 将 每 个 类 别 
个 为 “1”* 的 属性 改 为 “0”"。Q3 为 随机 挑选 5 个 测量 了 2 个 属性 以 上 的 类 别 ， 随 机 将 每 个 类 别 
中 一 个 为 “0 的 属性 改 为 "1”， 将 其 中 一 个 为 “1 的 属性 改 为 "0”。Q4 则 包含 了 前 三 个 Q 向 量 
的 所 有 错误 。Q5 和 Q6 则 分 别 模拟 了 10% 和 20% 的 随机 错误 ， 但 保证 每 个 类 别 测量 了 最 多 


3 个 属性 最 少 1 个 属性 。 


表 2 QQ 和 矩阵 错误 类 型 
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Q Q ERE TR RU IU 调整 的 类 别 调整 的 属性 个 数 备注 


分 别 为 Q1、 
=| -0 M Q1. Q2 fll Q3 的 
Q4 qj =1 > qx = Q2 fll Q3 的 类 20 ge 
别 
-0—4j,-bq;, 714,70 
调整 后 
Q5 10% 随机 调整 随机 20 * 
° IR, <3 
— — Im" 
Q6 20% 随机 调整 随机 40 


IR <3 


4.1.4 被 试 作答 模拟 
根据 模拟 的 被 试 参数 和 题目 参数 分 别 计 算 被 斌 i 在 题目 ;上 所 有 类 别 的 得 分 概率 


b= lrx, = a;)]. 以 Pj 为 概率 在 类 别 分 布 (Categorical distribution ) 


a5, P(X, =H, 


中 产生 被 试 i 在 题目 7 上 的 作 管 反 应 得 分 ， 即 XX; = Cat(F,) 。 
4.1.5 评价 指标 

计算 每 次 修正 后 的 Q 矩阵 与 真实 Q 矩阵 每 个 类 别 属性 模式 的 一 致 性 作为 模式 判 准 率 
阵 与 真实 Q 矩阵 属性 的 一 致 性 作为 
属性 判 准 率 (attribute match ratio, AMR). LAA FPR (False Positive Rate) 和 TPR (True Positive 
Rate) 分 别 代表 错误 标定 的 属性 未 被 修改 的 比例 和 正确 标定 的 属性 未 被 修改 的 比例 。 所 有 实 


WHER 200 次 ， 然 后 再 计算 200 次 实验 的 平均 PMR、AMR、FPR 以 及 TPR。 


(pattern match ratio, PMR) 。 计 算 每 次 修正 后 的 Q X 


TU 


H 


J 
> > n jh. correct 


PMR a2 > (9) 


J 
DH, 


j=l 
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公式 9 和 10H, J 为 题目 


K 
2 Tink . correct 


第 及 类别 的 gq 向 量 是 否 与 真实 Q FMEA jE A 类 别 一 致 ， 完 全 一 致 则 为 1, 


AX (10) 中 ,为 属性 
或 者 D 是 否 与 真实 Q 甸 
为 了 比较 修正 前 后 QOBEERIOLS, A) mE SE QA 


(Liu et al., 2016) ， 并 计算 200 次 试验 的 平均 值 。 


个 数 > lljhk correct 表示 人 


BERRE Jj 题 第 有 类别 的 第 个 属 怕 
E 阵 中 第 j 题 第 h 类 别 第 个 属性 一 致 ， 如 果 一 致 则 为 1， 否则 为 0. 


E 阵 修正 前 后 的 绝对 拟 合 指标 RMSEA 


(10) 


否则 为 0。 


个 数 ， H, 为 第 j 题 的 类 别 数 量 ， Njn correct 为 修正 后 的 第 j 题 


E (为 0 


在 复杂 模型 (seq-RRUM 和 seq-GDINA) F, 三 种 模型 相对 拟 合 统计 量 在 所 有 实验 条 件 
下 均 是 BIC 指标 的 Q 矩阵 恢复 率 最 高 ， 且 -2LL 和 AIC 指标 修正 后 Q 矩阵 的 RMSEA 指标 
均 不 如 BIC 方法 修正 后 的 结果 。 而 在 简化 模型 (seq-DINA〉 中，AIC、BIC 指标 与 -2LL fü 
标 是 等 价 的 。 同 时 ， 四 种 顺序 算法 中 先 增 加 属性 后 删除 属性 的 算法 Cforward-then-backward 


search algorithm) 与 先 删除 属性 后 增加 属性 的 算法 Cbackward-then-forward search algorithm) 


的 表现 几乎 一 致 ， 而 增 


4. 2 研究 一 实验 结果 


表 3 和 表 4 分别 呈现 了 BIC 方法 和 stepwise 方法 在 seq-DINA 模型 以 及 seq-RRUM 模型 
中 的 实验 结果 。 根据 表 3 的 结果 可 知 ,在 seq-DINA 模型 下 ， 使 朋 
试验 条 件 下 ，BIC 方法 修正 Q 矩阵 的 
率 分 别 为 83.0% 和 96.9%; stepwise 方法 的 平均 模式 判 准 率 和 属性 关 


总 体 上 ，BIC 方法 的 模式 类 


上 其 有 很 好 的 效果 。 在 所 


判 准 率 差异 不 超过 1%。 
在 不 同 Q 矩阵 错误 


之 间 ; 而 对 于 Q6 的 修正 结果 略 差 于 前 5 Q ER, 


类 型 


= 


ES 


Ait Jg 


IE 


PES 
search algorithm) 在 一 些 实验 条 件 下 略 低 于 前 两 种 算法 。 而 相对 于 穷尽 算法 ， 先 增加 属性 
删除 属性 的 算法 并 不 会 降低 Q 矩阵 修正 的 正确 率 ， 穷 尽 算法 与 先 增加 属性 后 删除 属性 的 算 
法 之 间 属 性 判 准 率 差 异 不 超过 1%。 因 此 为 了 报告 的 简洁 性 ， 本 文 只 报告 先 增加 属性 后 删除 
属性 算法 的 BIC 方法 和 stepwise 方法 Q 矩阵 修正 后 的 结果 及 RMSEA 指标 。 


if 


= 


ik (forward search algorithm) 和 删除 属性 算法 (backward 


后 


H BIC 方法 进行 Q 矩阵 修正 


F 均 模式 判 准 率 和 属性 判 准 


准 率 为 78.1% 和 95.7%。 


E 率 和 属性 判 准 率 略 高 于 stepwise 方法 ， 大 多 数 条 伯 


F 下 两 者 属性 


HE, BIC 方法 对 Q1-Q5 的 恢复 率 相 当 ， 属 性 判 准 率 在 95%-98% 


属性 判 准 率 在 93%-95% 之 间 。Stepwise 


方法 在 不 同 错误 Q 矩阵 上 表现 也 相近 ,属性 判 准 率 均 在 92% 以 上 。 因 此 在 seq-DINA 模型 下 ， 
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不 同 Q 矩阵 的 错误 类 型 对 BIC 方法 和 stepwise 方法 的 整体 修正 效果 影响 不 大 。 

对 于 FPR 和 TPR 指标 ，BIC 方法 的 TPR 指标 在 所 有 实验 条 件 下 均 能 达到 95% 左 右 ， 表 
明 BIC 方法 不 会 轻易 更 改正 确 标定 的 属性 。 而 BIC 方法 的 FPR 指标 ， 在 Q2 时 低 于 其 他 Q 
和 矩阵， 这 也 许 是 由 于 DNA 模型 的 特性 造成 的 ， 即 需要 掌握 题目 测量 的 所 有 属性 才能 答对 ， 
因此 BIC 方法 倾向 于 将 缺失 的 属性 修改 过 来 。 而 stepwise 方法 的 TPR 指标 与 BIC 方法 相差 
不 大 ， 而 FPR 指标 在 Q2-Q4 下 比 其 他 错误 Q 矩阵 更 高 ， 说 明 stepwise 方法 对 属性 缺失 不 够 
敏感 。 

在 样本 量 对 Q 抢 阵 修正 效果 的 影响 上 ,样本 量 越 大 ,两 种 方法 对 Q 矩阵 的 恢复 率 越 高 。 


当 N=500 IN, BIC 方法 和 stepwise 方法 的 平均 属性 判 准 率 95.6% 和 94.6%; 当 N=2000 HT, 


BIC 方法 和 stepwise 方法 的 平均 属性 判 准 率 为 97.9% 和 96.7%。 因 此 增加 样本 量 可 以 提高 
种 方法 的 Q FEMME AE TER 
co 在 修正 前 后 Q 秆 阵 的 拟 合 上 来 看 ， 两 种 方法 修正 后 的 Q BEER RMSEA 值 均 低 于 修正 
c 前 的 Q FEM, WAIE HY Q FEMS Be SEU. EMARKET, ERTH Q FAME 
平均 RMSEA {AW 0.048, BIC 方法 和 stepwise 方法 修正 以 后 Q HABE AF 35] RMSEA 值 为 0.007 
e 和 0.017. BIC 方法 修正 后 的 Q HREH, stepwise 方法 修正 后 的 Q 矩阵 拟 合 更 好 ,平均 差异 为 
= 0.01。 此 外 ， 样 本 量 越 大 ，BIC 方法 修正 后 的 Q 矩阵 的 RMSEA 值 更 小 ， 如 在 Q1-Q5 FH 


L 


WwW 


N-2000 If, BIC 方法 修正 后 的 RMSEA 值 在 0.003~0.004 左右 。 
根据 表 4 的 结果 ， 在 seq-RRUM 模型 中 ， 总 体 上 BIC 方法 表现 优 于 stepwise 方法 。 在 
所 有 实验 条 件 下 ，stepwise 方法 和 BIC 方法 的 模式 判 准 率 分 为 78.1% 和 87.5%， 属 性 判 准 率 
分 别 为 96% 和 98%。 
对 于 样本 量 的 影响 ， 两 种 方法 对 Q 和 矩阵 修正 的 模式 判 准 率 和 属性 判 准 率 随 着 被 试 人 数 
的 增加 而 增加 。 24 N=500 时 , stepwise 方法 和 BIC 方法 的 平均 属性 判 准 率 为 94.8% 和 97.4%; 


= 


X 


“4 N=2000 I}, stepwise 方法 和 BIC 方法 的 平均 属性 判 准 率 为 96.9% 和 98.6% 

在 不 同 Q 矩阵 错误 类 型 上 ，stepwise 方法 和 BIC 方法 对 Q ERENT ATR EE Q HERE 
错误 类 型 的 影响 不 大 。 如 在 QI-Q5 F, stepwise 方法 和 BIC 方法 的 属性 判 准 率 均 在 96% Fil 
98% 左 右 波动 。 而 在 Q6 中 ， 两 种 方法 的 属性 判 准 率 有 所 降低 ， 但 是 降幅 不 大 。 

对 于 FPR 和 TPR 指标 ， 在 所 有 Q 矩阵 错误 类 型 下 ， 两 种 方法 的 TPR 指标 相近 ， 均 在 
95% 以 上 ， 而 两 种 方法 的 FPR 指标 在 Q2-Q6 PERRI QI 中 ， 说 明 两 种 方法 对 属性 元 余 更 
加 敏感 。 这 同样 也 说 明 Q 矩阵 中 包含 属性 缺失 对 两 种 方法 的 影响 更 大 。 

对 于 修正 前 后 Q 矩阵 的 绝对 拟 合 ， 与 seq-DINA 模型 中 略 有 不 同 ， 即 在 Q1 条 件 下 ， 两 
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种 方法 修正 后 的 Q 矩阵 与 修正 前 的 Q 矩阵 的 RMSEA 指标 几乎 一 致 。 这 是 由 于 Q1 为 属性 
宛 余 ， 而 在 复杂 模型 中 ， 属 性 元 余 并 不 会 导致 拟 合 变 差 。 而 在 Q2-Q6 中 ， 修 正 前 的 Q ABE 
的 平均 RMSEA 分 别 为 0.037，stepwise 方法 和 BIC 方法 修正 后 的 Q 矩阵 平均 RMSEA 分 别 
为 0.007 和 0.005， 说 明 两 种 方法 修正 后 的 Q 矩阵 与 数据 更 加 拟 合 。 而 BIC 方法 修正 后 的 Q 
AB PESE 3530.6 EDT. stepwise 方法 修正 后 的 Q 和 矩阵。 同样 ， 随 着 样本 量 的 增加 ，stepwise 
方法 和 BIC 方法 修正 后 的 Q 矩阵 具有 更 好 的 拟 合 值 ， 如 当 N=2000 时 ，stepwise 方法 和 BIC 
方法 修正 后 的 Q 矩阵 的 平均 RMSEA 为 0.006 和 0.003. 
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表 3 BIC 方法 和 stepwise 方法 在 seq-DINA 模型 中 200 次 实验 的 平均 结果 
PMR AMR FPR TPR RMSEA 
Q-matrix N 

Stepwise BIC Stepwise BIC Stepwise BIC Stepwise BIC Qw stepwise Qaic 

500 0.795 0.788 0.957 0.963 0.118 0.157 0.958 0.965 0.017 0.015 0.007 

Ql 1000 0.879 0.863 0.975 0.977 0.065 0.074 0.975 0.978 0.018 0.009 0.005 
2000 0.918 0.911 0.984 0.986 0.048 0.049 0.985 0.986 0.019 0.005 0.003 

500 0.763 0.790 0.953 0.962 0.367 0.021 0.958 0.962 0.017 0.016 0.007 

Q2 1000 0.826 0.856 0.967 0.975 0.257 0.004 0.971 0.975 0.016 0.011 0.005 


0.339 


0.251 


0.180 


0.363 


0.288 


0.251 


0.112 


0.082 


0.065 


0.687 


0.786 0.952 
0.861 0.964 
0.910 0.974 
0.776 0.938 
0.853 0.950 
0.905 0.956 
0.7TT 0.951 
0.851 0.968 
0.903 0.975 
0.687 0.924 
0.744 0.931 
0.793 0.935 


0.184 


0.173 


0.163 


0.016 0.006 
0.010 0.005 
0.009 0.004 
0.020 0.007 
0.015 0.005 
0.013 0.003 
0.020 0.008 
0.011 0.004 
0.013 0.004 
0.035 0.015 
0.038 0.017 
0.037 0.010 


E: Qw CQ wrong) 


为 修正 前 的 Q 矩阵 ， 下 同 。 
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#24 BIC 方法 和 stepwise 方法 在 seq-RRUM 模型 中 200 次 实验 的 平均 结果 


PMR AMR FPR TPR RMSEA 
Q-matrix N 
Stepwise BIC Stepwise BIC Stepwise BIC Stepwise BIC Qw stepwise Qaic 
500 0.750 0.841 0.952 0.975 0.083 0.022 0.952 0.975 0.006 0.007 0.006 
Ql 1000 0.823 0.884 0.968 0.982 0.037 0.041 0.968 0.983 0.005 0.005 0.005 
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5 研究 二 : 不 同方 法 在 seq-GDINA 模型 中 的 比较 研究 
研究 一 中 多 级 计 分 的 认 知 诊断 模型 在 每 个 类 别 上 的 链接 函数 具有 一 定 的 约束 ， 可 以 1 


seq-GDINA 模型 转换 而 来 。 而 seq-GDINA 是 饱和 的 模型 ， 因 此 具有 更 广 的 适用 性 。 研 究 二 


则 是 对 不 同方 法 在 seq-GDINA 模型 中 的 效果 进行 验证 及 比较 。 


5.1 研究 二 实验 设计 


研究 二 的 实验 设计 与 研究 一 的 实验 设计 相似 ， 不 同 的 是 研究 二 使 用 的 是 seq-GDINA 模 


ry 


型 。 其 余 实 验 条 件 请 见 研 究 


5. 2 研究 二 实验 结果 


#5 呈现 了 BIC 方法 和 stepwise 方法 在 seq-GDINA 模型 中 的 实验 结果 。 从 表 5 可 以 看 


出 , 与 研究 一 的 结果 相似 ， 总体 上 BIC 方法 略 优 于 stepwise 方法 ，BIC 方法 和 stepwise 方法 
的 平均 模式 判 准 率 分 别 为 90.5% 和 84.5%， 属 性 判 准 率 分 别 为 98.6% 和 97.1%。 两 种 方法 的 
Q 矩阵 恢复 率 随 着 被 试 人 数 的 增加 而 逐渐 增加 ， 如 当 N=500 IN, BIC 方法 的 平均 模式 判 准 
率 和 平均 属性 判 准 率 分 别 为 86% 和 97.9%，stepwise 方法 的 平均 模式 判 准 率 和 属性 判 准 率 分 


别 为 78% 和 95.9%; 7*4 N=2000 时 ，BIC 方法 的 平均 模式 判 准 率 和 平均 属性 判 准 率 分 别 为 
94.8% 和 99.3%, stepwise 方法 的 平均 模式 判 准 率 和 属性 判 准 率 分 别 为 90.8% 和 98.5%。 不同 
Q 和 矩阵 错误 类 型 下 两 种 方法 对 Q 矩阵 的 整体 恢复 率 差 异 不 大 。 在 修正 前 后 Q 矩阵 的 绝对 拟 
合 上 ， 在 Q1 条 件 下 ， 两 种 方法 修正 后 Q 矩阵 的 RMSEA 指标 几乎 与 修正 前 Q 矩阵 一 致 。 


= 


这 与 seq-RRUM 模型 中 结果 一 样 ， 这 是 由 于 Q1 矩阵 中 属性 匈 余 导 致 的 。 而 在 Q2-Q6 中 ， 


L 


修正 前 Q 矩阵 的 平均 RMSEA W 0.036, stepwise 方法 和 BIC 方法 修正 后 Q 矩阵 的 平均 
RMSEA 分 别 为 0.007 和 0.006， 说 明 修 正 后 的 Q 矩阵 与 数据 更 加 拟 合 。 随 着 样本 量 的 增加 ， 
两 种 方法 修正 后 的 Q ERRA FNAL 
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表 5 BIC 方法 和 stepwise 方法 在 seq-GDINA 模型 中 200 次 实验 的 平均 结果 


PMR AMR FPR TPR RMSEA 
Q-matrix N 
Stepwise BIC Stepwise BIC Stepwise BIC Stepwise BIC Qw stepwise Onic 
500 0.795 0.861 0.961 0.979 0.075 0.006 0.962 0.979 0.007 0.007 0.007 
Ql 1000 0.875 0.913 0.978 0.987 0.032 0.004 0.978 0.987 0.005 0.006 0.005 
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6 研究 三 : 实证 数据 分 析 


本 研究 采用 两 个 TIMSS (Trends in International Mathematics and Science Study) 数据 ， 


分 别 为 2011 年 8 年 级 和 2007 年 4 年 级 数学 测试 的 数据 .TIMSS 2011 年 的 数据 由 了 Park, Lee 和 


Johnson (2017) 标定 了 Q ERF, Ma 
的 分 析 。 该 数据 共 包括 23 个 题目 、7 


上 


和 de la Torre(2019) 将 该 数据 


j 于 多 级 计 分 Q FEMME IE 


个 属性 ， 共 748 名 学 生 的 作答 。 其 中 第 11 题 为 多 级 计 


分 的 题目 ， 其 余 题目 为 0-1 计 分 的 题目 ，Q FREI 6. 
表 6TIMSS 2011 (8 年 级 ) 数据 Q 和 矩阵 及 修正 结果 


Item Code 类 别 Al A2 A3 A4 AS A6 AT 
1 M042041 1 0 1 0 0 0 0 0 
2 M042024 1 0 1 0 0 0 0 0 
3 M042016 1 1 0 0 0 0 0 pet 
4 M042002 1 1 0 0 0 0 0 0 
5 M042198A 1 0 0 1 0 0 0 o*t 
6 M042198B 1 0 0 1 0 0 0 0 
7 M042198C 1 0 0 1 0 0* 0 0 
8 M042077 1 1 0 0 1 0 0 0 
9 M042235 1 0 0 0 1 0* 0 0 
10 M042150 1 0 0 0 0 1 0 0 
11 M042300Z 1 0 0 0 0 0 1 1 
11 M042300Z 2 0 0 0 0 1 0 0 
12 M042169A 1 0* 0 0 0 0 0 1 
13 M042169B 1 0 0 0 0 0 0 1 
14 M042169C 1 0* 0 0 0 0 0 1 
15 M032352 1 0 pet 0 0 0 1* 
16 M032725 0 1* 0 0 0 o*t 0 
17 M032738 0 0 0 1 0 0 0 
18 M032295 0 0 0 1 0 0 0 
19 M032331 0 0 0 0 1 1 0 
20 M032679 0 0 0 0 1 1* 0 
21 M032047 1 0 0 pe 0 0 0 
22 M032398 0* 0 0 0 1 0 0 
23 M032424 1 0 o** 0 1 0 0 0 


指标 对 应 的 最 优 模型 不 同 ， 因 此 为 了 


避免 模型 选择 错误 ， 这 里 使 月 


数据 ， 而 对 于 0-1 计 分 的 题目 则 等 价 了 
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Bt 


TE: Al 整数 和 自然 数 ，A2， 分 数 、 小 数 和 比例 ， A3， 模 式 ; A4， 表 达 式 、 方 程式 和 函数 ; A5， 线 条 、 和 角度 和 形状 ; A6. ME 
和 和 运动， A7， 数 据 的 组 织 、 表 达 和 解读 。“*” 为 BIC 方法 调整 的 属性 ;，“#" 为 stepwise 方法 调 


分 析 之 前 先 比较 该 数据 与 各 模型 之 间 的 拟 合 指标 (偏差 、 AIC、BIC)〉 ， 结 果 显 示 各 个 


H seq-GDINA 模型 来 拟 合 


用 GDINA 模型 来 拟 合 数据 。 两 种 方法 对 原始 Q X 
的 调整 结果 见 表 6， 其 中 带 “*” 的 属性 为 BIC 方法 建议 调整 的 属性 ， 带 “#” 的 属 怕 


ERF 


E7J stepwise 


方法 建议 调整 的 属性 。BIC 方法 共 调 整 了 12 个 题目 14 个 属性 ，stepwise 方法 调整 了 共 6 个 


a 


题目 6 个 属性 ， 并 且 stepwise 方法 调整 的 6 个 属性 全 部 包含 于 BIC 方法 调整 的 属性 中 。 而 


对 于 第 11 题 ， 两 种 方法 均 未 对 该 题 的 两 个 类 别 q 向 量 进行 调整 。 


表 7 呈现 了 不 同 Q 和 矩阵 之 间 的 一 致 率 ，BIC 方法 和 stepwise 方法 修正 后 的 Q 矩阵 与 原 


台 Q 和 矩阵 之 间 的 一 致 率 分 别 为 0.92 和 0.96, 而 BIC 方法 和 stepwise 方法 修正 后 的 Q 矩阵 之 


间 的 一 致 率 为 0.95，Q 矩阵 之 间 具 有 较 高 的 一 致 率 。 


表 7 TIMSS 2011 (8 年 级 ) 数据 不 同方 法 Q 和 矩阵 修正 一 致 率 


Qoriginal Onic stepwise 
Qoriginal 1 
Onic 0.92 1 
stepwise 0.96 0.95 1 


为 了 比较 两 种 方法 修正 后 的 Q 矩阵 与 原 有 的 Q HERE, 分别 计算 修正 前 后 Q 矩阵 的 相对 


拟 合 指标 C-2*LL. AIC. BIC) 和 绝对 拟 合 指标 CMo 检验 (Liu et al., 2016). RMSEA(Liu et al., 


2016) 和 SRMSRO ， 结 果 如 表 8。 从 表 8 可 以 看 出 ， 两 种 方法 修正 后 的 Q 矩阵 在 相对 拟 合 指 


标 上 均 优 于 原 有 Q 矩阵。 在 绝对 拟 合 上 , 修正 前 的 Q 矩阵 Mo 检验 为 p<0.01， 而 修正 后 的 Q 
和 矩阵 检验 结果 为 p=0.2 10.3, 因此 修正 后 的 Q 矩阵 与 数据 更 加 拟 合 。 在 RMSEA 和 SRMSR 
指标 上 ， 两 种 方法 修正 后 的 Q FEM HET ECA Q 和 矩阵。 而 两 种 方法 修正 后 Q 矩阵 的 拟 合 指 
标 相 近 ，Qsepwise 的 Ma 检验 和 RMSEA 优 于 与 Qm. M Qmic 的 相对 拟 合 指标 和 SRMSR 优 于 


stepwise o 


表 8 TIMSS 2011 (8 年 级 ) 数据 原 有 Q 矩阵 和 两 种 方法 修正 后 Q 和 矩阵 的 拟 合 指标 


相对 拟 合 指标 绝对 拟 合 指标 
Q Mp 检验 
-2*LL AIC BIC RMSEA SRMSR 
M» df P 
Qoriginal 18888.23 19274.23 20165.39 123.51 83 0.003 0.026 0.059 
Qaic 18624.73 19014.73 19915.13 89.02 81 0.254 0.012 0.044 
Qstepwise 18757.88 19139.88 20021.88 89.90 85 0.337 0.009 0.050 


此 外 , 我们 又 对 TIMSS 2007 年 的 数据 进行 了 分 析 。 该 数据 由 Lee, Park 和 Taylan (2011) 
标定 了 Q FEE, Ma 和 de la Torre(2016) 将 该 数据 用 于 多 级 计 分 模型 的 分 析 。 该 数据 共 包 扣 


11 个 题目 、8 个 属性 ， 共 823 名 学 生 的 作答 ， 其 中 第 3、7、9 题 为 多 级 计 分 的 题目 ， 其 余 题 


n 


LT 


目 为 0-1 计 分 的 题目 。 该 数据 原始 Q ORE MIZE 9 所 示 。 
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K 9 TIMSS 2007 (4 FR) 数据 Q 和 矩阵 及 修正 结果 


Item Code AL A2 A3 A4 A5 A6 A7 A8 
1 M041052 1 1 0 0 0 0 0 0 
2 M041281 0 1 1* 0 1* 0 0 0 
3 M041275 1 0 0 0 0 i 0 1* 
3 M041275 2 1* 0 0 0 0 1 0 1* 
4 M031303 0 1 1 0 0 0 0 0 
5 M031309 0 1 1 0 0 0 0 0 
6 M031245 1 0 1 0 1 0 0 0 0 
7 M031242A 1 0 1 1 0 1 0 0 0 
7 M031242B 2 0 0 0 0 0 0 1 0 
8 M031242C 1 0 1* 1* 0 1 0 1* 0 
9 M031247 1 0 1* 1 1 0 0 0 0 
9 M031247 2 0 1 1 1 0 0 0 0 
i ag 10 M031173 1 o* I 1 0 0 0 0 0 
11 M031172 1 1* 1* 0 0 0 1* 0 1 
注 : Al， 表 示 、 比 较 和 排序 整数 以 及 说 明 排序 位 置 的 价值 ， A2， 识 别 倍数 ， 使 用 四 步 操作 计算 整数 并 估算 ，A3， 解 决 问题 ， 包 括 
现实 情境 中 的 问题 (如 测量 和 资金 问题 ); A4， 查 找 缺 失 数 据 ， 或 对 包含 未 知 的 句子 和 表达 进行 操作 和 建 模 ; A5， 描 述 模式 及 其 
扩展 的 关系 ， 通 过 给 定 规则 生成 整数 对 ， 并 为 给 定 整数 对 的 每 个 关系 确定 规则 ; A6， 从 表格 ， 象 形 图 ， 条 形 图 和 饼 图 中 读 取 数 据 ; 
A7， 比 较 和 理解 如 何 使 用 数据 中 的 信息 ; A8， 了 解 不 同 的 表达 ， 用 表格 、 象 形 图 和 条 形 图 组 织 数据 。“* 为 BIC 方法 调整 的 属 
性 。 


分 析 结 果 为 stepwise 方法 和 BIC 方法 分 别 调整 了 17 个 属性 和 14 个 属性 ， 而 stepwise 
方法 调整 后 属性 S CAS) 没有 被 任何 题目 测量 ， 因 此 这 里 不 详细 展示 该 方法 的 具体 结果 ， 
BIC 调整 后 的 Q 矩阵 如 表 9。 同 样 计算 BIC 方法 修正 后 的 Q 矩阵 与 原始 Q 矩阵 的 绝对 拟 合 
和 相对 拟 合 指标 ， 由 于 该 Q 矩阵 修正 前 后 Mo 检验 的 自由 度 过 低 ， 因 此 这 里 不 能 进行 Mo 检 
验 。 原 有 Q 矩阵 和 BIC 方法 修正 后 的 SRMER 指标 分 别 为 0.0312 和 0.0246。 在 相对 拟 合 指 


= b&b. BIC 方法 修正 后 的 Q 矩阵 C AIC=11222.25; BIC=12677.42) 也 比 原 有 Q 和 矩阵 


(AIC=11513.79; BIC=13195.01) 拟 合 更 好 。 因 此 两 个 实证 数据 分 析 的 结果 均 显 示 BIC 方法 
修正 后 的 Q 矩阵 与 数据 拟 合 更 好 。 
7 结论 与 讨论 
7.1 结论 

本 研究 探讨 了 基于 类 别 水 平 的 多 级 计 分 认 知 诊断 测验 Q 矩阵 修正 ， 并 采用 Monte Carlo 
模拟 研究 和 实证 研究 验证 和 比较 了 stepwise 方法 和 相对 拟 合 指标 用 于 Q 矩阵 修正 的 效果 及 
特性 ， 为 实践 中 多 级 计 分 的 测验 Q 矩阵 修正 提供 了 方法 支持 。 研 究 发 现 : C) BIC 方法 对 
多 级 计 分 认 知 诊断 模型 的 Q 矩阵 修正 具有 较 高 的 模式 判 准 率 和 属性 判 准 率 ， 其 对 Q ERER 


恢复 率 也 高 于 stepwise 方法 ，BIC 方法 修正 后 的 Q 和 矩阵 与 数据 更 加 拟 合 。 (2) 在 复杂 模型 
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中 ， 相 对 拟 合 指标 BIC 比 AIC 和 -2LL 表现 更 好 ， 在 实践 中 ， 使 用 者 可 以 选择 BIC 法 进行 测 
验 Q 和 矩阵 修正 。 (D Q 和 矩阵 修正 效果 受到 被 试 人 数 的 影响 ， 增 加 被 试 人 数 可 以 提高 Q 矩阵 
修正 的 正确 率 。 
7.2 讨论 
(1) 多 级 计 分 认 知 诊断 Q 珑 阵 修正 方法 

多 级 计 分 的 题目 是 实际 测验 中 常见 的 题 型 , 并 且 多 级 计 分 题目 比 0-1 计 分 题目 能 提供 更 
多 的 信息 , 因此 多 级 计 分 认 知 诊断 模型 的 开发 对 认 知 诊断 的 发 展 具 有 重要 作用 。 本 研究 将 相 
对 拟 合 统计 量 用 于 多 级 计 分 认 知 诊断 模型 Q 矩阵 修正 中 ， 并 改进 Q 矩阵 修正 算法 ， 研 究 发 
Ji BIC 方法 在 多 级 计 分 模型 中 的 Q 矩阵 修正 具有 很 好 的 效果 。 并 且 该 方法 受到 被 试 人 数 的 
影响 较 少 ， 在 不 同 Q 矩阵 错误 类 型 下 均 有 较 好 的 修正 效果 。 为 了 提高 运算 效率 ， 本 文中 使 
用 了 顺序 算法 ,模拟 研究 发 现 本 文中 使 用 的 顺序 算法 与 穷尽 算法 之 间 的 属性 判 准 率 差异 不 超 
过 1%。 而 本 文中 的 顺序 算法 为 先 增加 属性 后 删除 属性 的 算法 ， 其 表现 与 先 删除 属性 再 增加 
属性 的 算法 一 致 。 增 加 属性 算法 和 删除 属性 的 算法 略 差 ,这 可 能 是 由 于 后 两 种 算法 没有 利用 
到 专家 给 定 的 9 向 量 信息 。 此 外 在 模型 不 确定 的 情况 下 ， 可 以 使 用 饱和 模型 Cseq-GDINA ) 
来 进行 Q 矩阵 修正 ， 模 拟 研 究 显 示 使 用 饱和 模型 进行 Q 抢 阵 修正 并 不 会 降低 Q FE EAE IERI 
效果 。 
(2) 多 级 计 分 认 知 诊断 下 类 别 水 平 与 项 目 水 平 Q FE MEE IE 

类 别 水 平 的 Q 矩阵 需要 在 每 个 类 别 上 分 别 标定 Q 矩阵 ， 因 此 能 更 准确 地 探查 出 被 试 的 
解 题 过程 ， 且 分 类 准确 性 也 更 高 。 但 是 为 每 个 类 别 标定 Q 矩阵 不 仅 有 难度 且 会 增加 Q 矩阵 
标定 的 工作 量 。 而 项 目 水 平 的 Q 和 矩阵 的 标定 相对 简单 ， 但 产生 的 结果 是 忽略 了 每 个 步 又 的 
信息 ， 从 而 分 类 准确 性 有 所 降低 (Ma & de la Torre，2016)。 在 Q 矩阵 修正 上 ， 对 类 别 水 平 Q 
矩阵 的 修正 也 更 难 。 本 研究 在 多 级 计 分 模型 下 对 类 别 水 平 的 Q FEE TERE ORI, JF AR 
Ji BIC 方法 具有 较 好 的 效果 ， 为 多 级 计 分 模型 下 类 别 水 平 Q 矩阵 的 标定 与 修正 提供 了 方法 
支持 。 
(3) Q 矩阵 修正 结果 应 与 专家 意见 相 结合 

从 作答 数据 出 发 提出 Q 矩阵 修正 方法 可 以 避免 专家 标定 Q 矩阵 的 主观 性 ， 也 可 以 减轻 
专家 的 负担 。 但 是 客观 方法 标定 的 Q 矩阵 不 能 直接 作为 最 终 的 Q 矩阵 ， 应 该 与 专家 的 意见 
相 结合 。 从 作答 数据 出 发 进行 的 Q 矩阵 标定 可 以 作为 专家 标定 Q 矩阵 的 参考 和 依据 ， 但 是 
不 能 忽视 专家 在 测验 设计 和 Q 算 阵 标定 中 的 重要 作用 。 而 本 文中 BIC 方法 修正 后 的 Q 矩阵 
与 数据 更 加 拟 合 也 并 不 代表 修改 的 属性 恰当 , 需要 由 专家 最 后 决定 是 否 对 Q 矩阵 进行 修改 。 
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当 客观 方法 得 出 的 Q FEE SE AMA, WHS SEAT ORE, BAHASA 
题目 删除 。 
(4) 未 来 研究 方向 

本 研究 尝试 提出 在 多 级 计 分 模型 下 的 Q 矩阵 修正 方法 ， 并 发 现 BIC 方法 可 用 于 多 级 计 
分 认 知 诊断 模型 的 Q 矩阵 修正 。 但 是 本 研究 还 存在 一 些 需要 进一步 探究 的 地 方 ， 如 不 同 题 
目 参数 质量 对 Q 矩阵 修正 的 影响 、 项 目 水 平 Q 矩阵 下 不 同方 法 的 表现 如 何 、 属 性 间 有 层级 
关系 时 Q 矩阵 的 修正 效果 等 。 此 外 对 于 多 级 计 分 模型 下 Q 矩阵 的 标定 还 有 更 多 的 问题 需要 
进行 研究 ， 如 Q 矩阵 完备 性 和 可 识别 性 的 推导 证 明 、 当 属性 个 数 有 误 时 如 何 自 动 识别 以 及 
更 多 的 真实 数据 研究 等 。 总 之 ， 对 多 级 计 分 模型 下 的 Q 矩阵 修正 方法 还 需要 进一步 的 研究 。 
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Abstract 

Cognitive diagnostic assessments (CDAs) can provide fine-grained diagnostic information 
about students' knowledge states, so as to help to teach in accordance with the students’ aptitude. 
The development of cognitive diagnosis model for polytomous response data expands the 
application scope of cognitive diagnostic assessment. As the basis of CDAs, Q-matrix has aroused 
more and more attention for the subjective tendency in Q-matrix construction that is typically 
performed by domain experts. Due to the subjective process of Q-matrix construction, there 
inevitably have some misspecifications in the Q-matrix, if left unchecked, can result in a serious 
negative impact on CDAs. To avoid the subjective tendency from experts and to improve the 
correctness of the Q-matrix, several objective Q-matrix validation methods have been proposed. 
Many Q-matrix validation methods have been proposed in dichotomous CDMs, however, the 
research of the Q-matrix validation method under polytomous CDMs is stalling lacking. To 
address this concern, several relative fit statistics (i.e., -2LL, AIC, BIC) were applied to the 
Q-matrix validation for polytomous cognitive diagnosis model in this research. The process of 


Q-matrix validation is as follows: 
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First, the reduced Q-matrix is represented by Q, , which represents a set of potential 


q-vectors and contains 2F—1] possible q-vectors when attributes are independent. When 


validating the q-vector of the first category of item j, all possible q-vectors in Q, can be used as 


the q-vector of the first category of item j, and the Q-matrix of remaining items remains intact. 
From this, the item parameters and the attribute patterns of students can be estimated, and the 
-2LL, AIC, and BIC can be calculated accordingly. The q-vector with the largest likelihood (or 
smallest AIC/BIC) is regarded as the q-vector of the first category of item 7. The q-vector of the 
next category of the item j can also be obtained in the same way. The algorithm stops when the 
validated Q-matrix is same as the previous Q-matrix, or every item has been reached. In order to 
improve the efficiency of the method, a sequential search algorithm was proposed. 

Several simulation studies were conducted to evaluate the effectiveness and practicality of 
these methods, and the performance of the methods in this paper was compared with the stepwise 
method (Ma & de la Torre, 2019). Three experimental factors were considered in simulation 
studies, including sample size, Q-matrix error types and CDMs. The results show that (1) BIC 
method can be used for Q-matrix validation. under polytomous response CDMs, and the 
performance of the BIC method is better than the stepwise method. (2) In general, the 
performance of the three methods from good to bad is the BIC method, AIC method, and -2LL 
method. (3) The performance of Q-matrix validation methods is affected by the sample size, and 
increasing the number of sample size can improve the accuracy of the Q-matrix validation. 

In this study, Q-matrix validation methods for polytomous response CDMs were studied. It 
was found that the BIC method can be used for the Q-matrix validation under polytomous 
response CDMs. The method proposed in this paper can not only improve the accuracy of 
Q-matrix specification but also increase the model-data fit level. Besides, the data-based Q-matrix 
validation method can also reduce the workload of experts in Q-matrix construction and improve 


the classification accuracy of cognitive diagnosis. 


Key words cognitive diagnostic assessment; Q-matrix; seq-GDINA; BIC 
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